\section{对角化}

\begin{frame}{本节概要}
  \begin{enumerate}
    \item 本节我们将考察何样的线性变换的矩阵在一组适当的基下可以是对角矩阵。
      考虑$n$维线性空间$V$上的线性变换$\sA$.
      我们得到了刻画可对角化的两个等价条件：
      \begin{enumerate}
        \item $\mathscr{A}$ 有 $n$ 个线性无关的特征向量。
        \item 所有特征子空间的维数之和等于$n=\dim V$.
      \end{enumerate}
      后面在逐渐发展理论的过程中我们还会讲到更多的可对角化的判定方法，
      并在第八章定理~\ref{13A}~做了总结。
\item 在得到上面的结论的同时，我们得到了：属于不同特征值的特征向量是线性无关的；
  更一般地，属于不同的特征值的特征子空间是线性无关的。
我们得到了能对角化的一个充分条件：如果$\sA$有$n$个不同的特征值，那么$\sA$可对角化。
  \end{enumerate}
\end{frame}

\begin{frame}{可对角化问题}
对角矩阵可以认为是矩阵中最简单的一种。 本节我们将考察究竟哪一些线性变
换的矩阵在一组适当的基下可以是对角矩阵。

  当线性变换 $\mathscr{A}$ 在一组基下的矩阵 $ A$ 是对角形时，即
\[
  A=\begin{pmatrix}
    \lambda_{1} & & & \\
  & \lambda_{2} & & \\
& & \ddots & \\
& & & \lambda_{n}
\end{pmatrix},
\]
$\mathscr{A}$ 的特征多项式就是
\[
|\lambda  E- A|=\left(\lambda-\lambda_{1}\right)\left(\lambda-\lambda_{2}\right) \cdots\left(\lambda-\lambda_{n}\right) .
\]
因此，如果线性变换 $\mathcal{A}$ 在一组基下的矩阵是对角形，那么主对角线上的元素除排列次序外是确定的，它们正是 $ A$ 的特征多项式全部的根 (重根按重数计算).

一个线性变换的矩阵能不能在某一组基下是对角形的问题就相当于一个矩阵是不是相似于一个对角矩阵的问题。
因此， 这一节的讨论也就解决了后一个问题。这两个问题都称为可对角化问题。
若线性变换在一组基下的矩阵是对角阵，那么该线性变换称为\emph{可对角化} (diagonalizable)；
若方阵可相似到对角阵，该方阵也称为\emph{可对角化} (diagonalizable)。
\end{frame}

\begin{frame}{可对角化的条件}

  \begin{theorem}\label{156}
设 $\mathscr{A}$ 是 $n$ 维线性空间 $V$ 的一个线性变换， $\mathscr{A}$ 的矩阵可以在某一组基下为对角矩阵的充分必要条件是， $\mathscr{A}$ 有 $n$ 个线性无关的特征向量。
\end{theorem}

\begin{proof}
设 $\mathscr{A}$ 在基 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{n}$ 下具有对角矩阵
\[
  \begin{pmatrix}
        \lambda_{1} & & & \\
        & \lambda_{2} & & \\
      & & \ddots & \\
    & & & \lambda_{n}
\end{pmatrix} .
\]
这就是说，
\[
\mathscr{A}  \varepsilon_{i}=\lambda_{i}  \varepsilon_{i}, \quad i=1,2, \cdots, n .
\]
因此， $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{n}$ 就是 $\mathscr{A}$ 的 $n$ 个线性无关的特征向量。

反过来，如果 $\mathscr{A}$ 有 $n$ 个线性无关的特征向量 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{n}$, 那么就取 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{n}$为基，显然，在这组基下 $\mathscr{A}$ 的矩阵是对角矩阵。 
\end{proof}
\end{frame}

\begin{frame}%{属于不同特征值的特征向量线性无关}
为了进一步给出一些判别条件，我们来证

\begin{theorem}\label{15B}
属于不同特征值的特征向量是线性无关的。
属于不同的特征值的特征子空间是线性无关的；特别地，不同的特征子空间的和是直和。
(实际上，这两个断言是等价的，参见注记~\ref{150}。)
\end{theorem}

从上面这两个定理可以得到下面的可对角化的充分条件：

\begin{corollary}
如果在 $n$ 维线性空间 $V$ 中，线性变换 $\mathscr{A}$ 的特征多项式在数域 $P$ 中有 $n$ 个不同的根，即 $\mathscr{A}$ 有 $n$ 个不同的特征值，那么 $\mathcal{A}$ 在某组基下的矩阵是对角形的。
\end{corollary}

因为在复数域中任一个 $n$ 次多项式都有 $n$ 个根，所以上面的论断可以改写为

\begin{corollary}
在复数域上的线性空间中， 如果线性变换 $\mathscr{A}$ 的特征多项式没有重根，那么 $\sA$ 在某组基下的矩阵是对角形的。
\end{corollary}
\end{frame}

%\begin{frame}
%  \begin{proof*}[定理~\ref{15B}~的证明]
%对特征值的个数作数学归纳法。 由于特征向量是不为零的， 所以单个的特征向量必然线性无关。 
%现在设属于 $k$ 个不同特征值的特征向量线性无关，我们证明属于 $k+1$ 个不同特征值 
%$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{k+1}$ 的特征向量 
%$\xi_{1}, \xi_{2}, \cdots, \xi_{k+1}$ 也线性无关。
%假设有关系式
%\[\tag{1}
%a_{1}  \xi_{1}+a_{2}  \xi_{2}+\cdots+a_{k}  \xi_{k}+a_{k+1}  \xi_{k+1}=\symbf{0}
%\]
%成立。 等式两端乘 $\lambda_{k+1}$, 得
%\[\tag{2}
%a_{1} \lambda_{k+1} \xi_{1}+a_{2} \lambda_{k+1} \xi_{2}+\cdots+a_{k} \lambda_{k+1} \xi_{k}+a_{k+1} \lambda_{k+1} \xi_{k+1}=0 .
%\]
%(1) 式两端同时施行变换 $\mathscr{A}$,即有
%\[\tag{3}
%a_{1}  \lambda_{1}  \xi_{1}+a_{2}  \lambda_{2}  \xi_{2}+\cdots+a_{k}  \lambda_{k}  \xi_{k}+a_{k+1}  \lambda_{k+1}  \xi_{k+1}=\symbf{0} .
%\]
%(3) 减去 (2) 得到
%\[
%a_{1}\left(\lambda_{1}-\lambda_{k+1}\right) \xi_{1}+\cdots+a_{k}\left(\lambda_{k}-\lambda_{k+1}\right) \xi_{k}=\symbf{0} .
%\]
%根据归纳假设， $ \xi_{1},  \xi_{2}, \cdots,  \xi_{k}$ 线性无关，于是
%\[
%a_{i}\left(\lambda_{i}-\lambda_{k+1}\right)=0, \quad i=1,2, \cdots, k .
%\]
%但 $\lambda_{i}-\lambda_{k+1} \neq 0 $ ($i \leqslant k$), 所以 $a_{i}=0$ ($i=1,2, \cdots, k$). 这时 (1) 式变成 $a_{k+1} \xi_{k+1}=\symbf{0}$. 又$ \xi_{k+1} \neq  0$, 只有 $a_{k+1}=0$. 这就证明了 $ \xi_{1},  \xi_{2}, \cdots,  \xi_{k+1}$ 线性无关。
%归纳完成。 
%\end{proof*}
%\end{frame}

\begin{frame}
  \begin{proof*}[定理~\ref{15B}~的证明]
对特征子空间的个数作数学归纳法。 单个子空间总线性无关。 
现在设属于 $k$ 个不同特征值的特征子空间线性无关，我们证明属于 $k+1$ 个不同特征值 
$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{k+1}$ 的特征子空间
$V_1,\cdots,V_{k+1}$ 也线性无关。
假设有关系式
\[\tag{1}
  0 = \xi_{1}+ \xi_{2}+\cdots+ \xi_{k}+\xi_{k+1}\quad (\xi_i\in V_i)
\]
成立。 等式两端乘 $\lambda_{k+1}$, 得
\[\tag{2}
  0 = \lambda_{k+1} \xi_{1}+ \lambda_{k+1} \xi_{2}+\cdots+\lambda_{k+1} \xi_{k}+ \lambda_{k+1} \xi_{k+1}.
\]
(1) 式两端同时施行变换 $\mathscr{A}$,即有
\[\tag{3}
  0=  \lambda_{1}  \xi_{1}+ \lambda_{2}  \xi_{2}+\cdots+ \lambda_{k}  \xi_{k}+ \lambda_{k+1}  \xi_{k+1}.
\]
(3) 减去 (2) 得到
\[
0=  \left(\lambda_{1}-\lambda_{k+1}\right) \xi_{1}+\cdots+\left(\lambda_{k}-\lambda_{k+1}\right) \xi_{k}.
\]
注意到每个$(\lambda_i-\lambda_{k+1}) \xi_i \in V_i$ ($1\leqslant i\leqslant k$),
根据归纳假设， 
\( (\lambda_i-\lambda_{k+1}) \xi_i=0\)  (\(i=1,2, \cdots, k. \))
但 $\lambda_{i}-\lambda_{k+1} \neq 0 $ ($1\leqslant i \leqslant k$), 所以 $\xi_i=0$ ($i=1,2, \cdots, k$). 
这时 (1) 式变成 $\xi_{k+1}=0$. 因此 $V_1,\cdots,V_{k+1}$ 无关。
归纳完成，这就证明不同的特征子空间是线性无关的。
特别地，属于不同特征值的特征向量是线性无关的。
诚然，令$\xi_1,\cdots,\xi_k$是分别属于互异的特征值$\lambda_1,\cdots,\lambda_k$的特征向量，
令$\sum_{i=1}^r c_i \xi_i=0$为一线性关系。由于$c_i \xi_i\in V_i$, 且$V_1,\cdots,V_k$线性无关，
每个$c_i\xi_i=0$. 又$\xi_i\neq 0$, 只有$c_i=0$. 因此 $\xi_1,\cdots,\xi_k$ 线性无关。
\end{proof*}
\end{frame}



\begin{frame}%{可对角化的等价条件}
  在一个线性变换没有 $n$ 个不同的特征值的情形下，
  要判别这个线性变换的矩阵能不能成为对角形，问题就要复杂些。 
  为了利用定理~\ref{156},
  我们把定理~\ref{15B}~推广为

\begin{theorem}
如果 $\lambda_{1}, \cdots, \lambda_{k}$ 是线性变换 $\mathscr{A}$ 的不同的特征值， 
而 $ \alpha_{i 1}, \cdots,  \alpha_{i r_{i}}(i=1,2, \cdots, k)$, 
是属于特征值 $\lambda_{i}$ 的线性无关的特征向量， 
那么向量组 $ \alpha_{11}, \cdots,  \alpha_{1 r_{1}}, \cdots,  \alpha_{k 1}, \cdots,  \alpha_{k r_{k}}$也线性无关。 
\end{theorem}


%这个定理的证明与定理~\ref{15B}~的证明相仿，
%也是对 $k$ 作数学归纳法， 留给读者来做。

\begin{proof}
  令属于特征值$\lambda_i$的特征子空间为$V_i$.
  设有关系式
  \[
    \sum_{j=1}^{r_1} c_{1j} \alpha_{1j} + \cdots + \sum_{j=1}^{r_k} c_{kj} \alpha_{kj} =0.
  \]
  注意到$\sum_{j=1}^{r_i} c_{ij} \alpha_{ij}\in V_i$, 由$V_1,\cdots,V_k$的线性无关性 
  (定理~\ref{15B}) 知
\[
  \sum_{j=1}^{r_i} c_{ij} \alpha_{ij}=0, \quad i=1,\cdots,k.
\]
又按假设$\alpha_{i1},\cdots,\alpha_{ir_i}$线性无关，所有系数 $c_{ij}=0$ ($i=1,\cdots,k$; $j=1,\cdots,r_i$). 
这就证明了$ \alpha_{11}, \cdots,  \alpha_{1 r_{1}}, \cdots,  \alpha_{k 1}, \cdots,  \alpha_{k r_{k}}$也线性无关。
\end{proof}


\end{frame}

\begin{frame}

根据这个定理，对于一个线性变换，求出属于每个特征值的线性无关的特征向量，把它们合在一起还是线性无关的。 如果它们的个数等于空间的维数，那么这个线性变换在一组合适的基下的矩阵是对角矩阵; 如果它们的个数少于空间的维数，那么这个线性变换在任何一组基下的矩阵都不能是对角形的。
换句话说，

\begin{theorem}\label{13C}
  设 $\mathscr{A}$ 全部不同的特征值是 $\lambda_{1}, \cdots, \lambda_r$. 
  那么  $\mathscr{A}$ 在某一组基下的矩阵成对角形的充要条件是 $\sum_{i=1}^r \dim V_{\lambda_i}  = \dim V$, 
  即 $\mathscr{A}$ 的特征子空间 $V_{\lambda_{1}}, \cdots, V_{\lambda_r}$ 的维数之和等于空间的维数
  (亦即，所有特征值的几何重数之和等于空间的维数)。
\end{theorem}


\begin{example}
  考虑矩阵
  \[
    A=\begin{pmatrix}
      3 & -1 & 0 & 0\\
      1 & 1 & 0 & 0\\
      3 & 0 & 5  & -3\\
      4 & -1 & 3 & -1
    \end{pmatrix}.
  \]
  易算得$A$的特征多项式为
    $f(\lambda)=(\lambda-2)^4$.
    $A$的特征值为$2$ ($4$重).
    易知$2E-A$的秩为$2$, 因此特征值$2$的几何重数 (特征子空间的维数) 为$4-2=2$.
    这样$A$不能对角化。
\end{example}
\end{frame}

\begin{frame}
\begin{example}
  在 \S 4 的例~\ref{000}~中， 已经算出线性变换 $\mathscr{A}$ 的特征值是 $-1, -1, 5$ , 而对应的特征向量是
 \[
 \xi_{1}=\varepsilon_{1}-\varepsilon_{3}, \quad \xi_{2}=\varepsilon_{2}-\varepsilon_{3}, \quad \xi_{3}=\varepsilon_{1}+\varepsilon_{2}+\varepsilon_{3} .
 \]
 由此可见， $\mathscr{A}$ 在基 $ \xi_{1},  \xi_{2},  \xi_{3}$ 下的矩阵为对角矩阵
 \[
    B=\begin{pmatrix}
     -1 & 0 & 0 \\
   0 & -1 & 0 \\
 0 & 0 & 5
 \end{pmatrix}
 \]
 而由 $ \varepsilon_{1},  \varepsilon_{2},  \varepsilon_{3}$ 到 $ \xi_{1},  \xi_{2},  \xi_{3}$ 的过渡矩阵是
 \[
   X=\begin{pmatrix}
     1 & 0 & 1 \\
   0 & 1 & 1 \\
 -1 & -1 & 1
 \end{pmatrix}
 \]
 于是 $ X^{-1}  A  X= B$.
 \end{example}

\end{frame}

\begin{frame}
\begin{example}
斐波那契数列 $\left(h_{0}, h_{1}, h_{2}, \cdots\right)=\left(h_{n}\right)$, 其中 $h_{0}=h_{1}=1$, 而
\[\tag{4}
h_{n}=h_{n-1}+h_{n-2}, \quad n \geqslant 2 .
\]
我们将用矩阵方法再次求出 $h_{n}$ 的一个统一的表达式。 
将关系式 (4) 添上
\(
  h_{n-1}=h_{n-1},
\)
可合起来写成
\[
  \begin{pmatrix}
  h_{n} \\
h_{n-1}
\end{pmatrix}=\begin{pmatrix}
1 & 1 \\
1 & 0
\end{pmatrix}\begin{pmatrix}
h_{n-1} \\
h_{n-2}
\end{pmatrix}, \quad n \geqslant 2 .  \tag{5}
\]
令
\[
  Z_{n}=\begin{pmatrix}
  h_{n} \\
h_{n-1}
\end{pmatrix}, \quad  A=\begin{pmatrix}
1 & 1 \\
1 & 0
\end{pmatrix},
\]
则(5)成为了
\[\tag{6}
Z_{n}=A Z_{n-1}, \quad n \geqslant 2
\]
其中
\[
  Z_{1}=\begin{pmatrix}
  1 \\
1
\end{pmatrix}.
\]
由此有
\[
  Z_2=AZ_1,\quad Z_3=AZ_2=A^2X_1,\quad \cdots, \quad Z_n=A^{n-1} X_1, \quad \cdots
\]
\end{example}
\end{frame}

%\begin{frame}
%  于是要求出 $X_{n}$, 只要求出 $ A^{n-1}$. 我们知道若 $ A$ 可以对角化， 则 $ A^{n-1}$ 就易于计算。
%易求出 $A$
%的特征值为
%\[\tag{7}
%  \lambda_1=\frac{1+\sqrt{5}}{2}, \quad \lambda_2=\frac{1-\sqrt{5}}{2}.
%\]
%可分别求出它们各自的一个特征向量为
%\[
%  Y_1=\begin{pmatrix}
%    \frac{1+\sqrt{5}}{2} \\ 1
%  \end{pmatrix},\quad
%  Y_2=\begin{pmatrix}
%    \frac{1-\sqrt{5}}{2}  \\ 1
%  \end{pmatrix}.
%\]
%令
%\[
%  T=(Y_1, Y_2)=\begin{pmatrix}
%    \frac{1+\sqrt{5}}{2} & \frac{1-\sqrt{5}}{2} \\ 1 & 1 
%  \end{pmatrix}=\begin{pmatrix}
%    \lambda_1 & \lambda_2 \\ 1 & 1
%  \end{pmatrix}.
%\]
%可计算出
%\[
%\begin{gathered}
%  T^{-1}=\frac{1}{\lambda_{1}-\lambda_{2}}\begin{pmatrix}1 & -\lambda_{2} \\ -1 & \lambda_{1}\end{pmatrix}=\frac{1}{\sqrt{5}}\begin{pmatrix}1 & -\frac{1-\sqrt{5}}{2} \\ -1 & \frac{1+\sqrt{5}}{2}\end{pmatrix},
%  \quad \text{且} \\
%  T^{-1}AT=\begin{pmatrix}
%      \lambda_1 & 0 \\ 0 & \lambda_2
%      \end{pmatrix}\quad \text{或}\quad
%        A=T\begin{pmatrix}
%            \lambda_1 & 0 \\ 0 & \lambda_2
%            \end{pmatrix} T^{-1}.
%          \end{gathered}
%\]
%于是
%\[
%  A^{n-1} = T\begin{pmatrix}
%    \lambda_1 & 0 \\ 0 & \lambda_2
%  \end{pmatrix}^{n-1} T^{-1}
%=T\begin{pmatrix}\lambda_{1}^{n-1} & 0 \\ 0 & \lambda_{2}^{n-1}\end{pmatrix} T^{-1}.
%\]
%
%\end{frame}

\begin{frame}
  \addtocounter{theorem}{-1}
  \begin{example}[续]
  于是要求出 $X_{n}$, 只要求出 $ A^{n-1}$. 我们知道若 $ A$ 可以对角化， 则 $ A^{n-1}$ 就易于计算。
易求出 $A$
的特征值为
\[\tag{7}
  \lambda_1=\frac{1+\sqrt{5}}{2}, \quad \lambda_2=\frac{1-\sqrt{5}}{2}.
\]
可分别求出它们各自的一个特征向量为
\[
  Y_1=\begin{pmatrix}
    \lambda_1 \\ 1
  \end{pmatrix},\quad
  Y_2=\begin{pmatrix}
    \lambda_2  \\ 1
  \end{pmatrix}.
\]
令
\[
  T=\begin{pmatrix} Y_1 & Y_2\end{pmatrix}=\begin{pmatrix}
    \lambda_1 & \lambda_2 \\ 1 & 1
  \end{pmatrix}.
\]
那么由$AY_i=\lambda_i Y_i$ ($i=1,2$) 和分块乘法知
\[
AT= T \begin{pmatrix}
      \lambda_1 & 0 \\ 0 & \lambda_2
    \end{pmatrix},\quad \text{从而}\quad
        A=T\begin{pmatrix}
      \lambda_1 & 0 \\ 0 & \lambda_2
      \end{pmatrix} T^{-1}.
\]
于是
\[
  A^{n-1} = T\begin{pmatrix}
    \lambda_1 & 0 \\ 0 & \lambda_2
  \end{pmatrix}^{n-1} T^{-1}
=T\begin{pmatrix}\lambda_{1}^{n-1} & 0 \\ 0 & \lambda_{2}^{n-1}\end{pmatrix} T^{-1}.
\]
\end{example}
\end{frame}



\begin{frame}
  \addtocounter{theorem}{-1}
  \begin{example}[续]

注意到 $\lambda_{1}+\lambda_{2}=1$, 可计算得
\begin{align*}
Z_{n} & =\begin{pmatrix}
h_{n} \\
h_{n-1}
\end{pmatrix}= A^{n-1} Z_{1}=\begin{pmatrix}
\lambda_{1} & \lambda_{2} \\
1 & 1
\end{pmatrix}\begin{pmatrix}
\lambda_{1}^{n-1} & 0 \\
0 & \lambda_{2}^{n-1}
\end{pmatrix} \cdot \frac{1}{\sqrt{5}}\begin{pmatrix}
1 & -\lambda_{2} \\
-1 & \lambda_{1}
\end{pmatrix}\begin{pmatrix}
1 \\
1
\end{pmatrix} \\
& =\frac{1}{\sqrt{5}}\begin{pmatrix}
\lambda_{1}^{n} & \lambda_{2}^{n} \\
\lambda_{1}^{n-1} & \lambda_{2}^{n-1}
\end{pmatrix}\begin{pmatrix}
\lambda_{1} \\
-\lambda_{2}
\end{pmatrix}=\frac{1}{\sqrt{5}}\begin{pmatrix}
\lambda_{1}^{n+1}-\lambda_{2}^{n+1} \\
\lambda_{1}^{n}-\lambda_{2}^{n}
\end{pmatrix}, \quad n \geqslant 2 . \tag{8}
\end{align*}
将(7) 中 $\lambda_{1}, \lambda_{2}$ 的值代入 (8) 中， 就有
\begin{equation*}
h_{n}=\frac{1}{\sqrt{5}}\left(\lambda_{1}^{n+1}-\lambda_{2}^{n+1}\right)=\frac{1}{\sqrt{5}}\left[\left(\frac{1+\sqrt{5}}{2}\right)^{n+1}-\left(\frac{1-\sqrt{5}}{2}\right)^{n+1}\right] . \tag{9}
\end{equation*}
(8) 中令 $n=0,1$, 易验证 $\frac{1}{\sqrt{5}}\left[\left(\frac{1+\sqrt{5}}{2}\right)^{n+1}-\left(\frac{1-\sqrt{5}}{2}\right)^{n+1}\right]$ 皆为 $1$, 故 $h_{0}, h_{1}$ 也符合公式 (9). 即 (9) 是斐波那契序列 $\left(h_{0}, h_{1}, h_{2}, \cdots\right)$ 中 $h_{n}$ 的统一表达式。
\end{example}
\end{frame}


\begin{frame}
\begin{exercise}
    设数列$\{x_n\}, \{y_n\}$满足
  \[
    \begin{cases}
    x_n = 2x_{n-1}+y_{n-1}\\
    y_n = 2x_{n-1}+3y_{n-1}
  \end{cases} \quad (n\geqslant 1),
\]
且$x_0=1, y_0=1$. 求$\{x_n\}, \{y_n\}$的通项公式。
\end{exercise}

\begin{exercise}
  设数列$(h_n)_{n\geqslant 0}$满足
  \[
    h_0=h_1=h_2=1, \quad h_n=6h_{n-1}-11h_{n-2}+6h_{n-3}\, (n\geqslant 3).
  \]
  求$(h_n)$的通项公式。
\end{exercise}

\end{frame}


\begin{frame}{几何重数、代数重数与对角化}
  一般地，我们无法做到对角化，至少在复数域上我们可以上三角化。%（不过不像对角化或我们后面讲的准对角化那样彻底、有用）。
  我们下面给出的上三角的形式尽管在理论上还不彻底（后面我们讲Jordan标准形时就做得彻底了），不过好在容易得到，且对目前的应用已然足够。

%  \begin{proposition}
%    \begin{enumerate}
%      \item 若已知$A\in P^{n\times n}$的特征多项式在$P$中有根$\lambda_1, \cdots, \lambda_r$ (这些$\lambda_i$可重复），则存在$Q\in \GL_n(P)$使得
%    \[
%      Q^{-1} A Q =\begin{pmatrix}
%        T & S\\ 0& A_1
%      \end{pmatrix}, 
%    \]
%    其中$T$是对角线上依次为$\lambda_1, \cdots, \lambda_r$的上三角方阵。
%    \pause
%  \item 若$A\in P^{n\times n}$的特征多项式在$P$中有$n$个根$\lambda_1, \cdots, \lambda_n$ (这些$\lambda_i$可重复），则存在$Q\in \GL_n(P)$使得
%      \[
%        Q^{-1} A Q=\begin{pmatrix}
%          \lambda_1 &  \cdots & * \\
%          & \ddots & \vdots \\
%          & & \lambda_n
%        \end{pmatrix}.
%      \]
%      特别地，复方阵都复相似于上三角方阵。
%    \end{enumerate}
%  \end{proposition}
%\pause
%
%上述结论有线性变换的版本，叙述留给读者。
\begin{proposition}\label{114}
  \begin{enumerate}
    \item \textit{线性变换形式}：设$\sA$是$n$维复向量空间$V$上的线性变换，且$\sA$的$n$个特征值为$\lambda_1,\cdots,\lambda_n$.
      那么存在$V$的一组基使得$\sA$在该基下的矩阵形如
      \[
        \begin{pmatrix}
         \lambda_1 &  \cdots & * \\
          & \ddots & \vdots \\
          & & \lambda_n
        \end{pmatrix}.
      \]
    \item \textit{矩阵形式}：设$A\in \bC^{n\times n}$的$n$个特征值为$\lambda_1, \cdots, \lambda_n$.
        那么存在$Q\in \GL_n(\bC)$使得
      \[
        Q^{-1} A Q=\begin{pmatrix}
          \lambda_1 &  \cdots & * \\
          & \ddots & \vdots \\
          & & \lambda_n
        \end{pmatrix}.
      \]
  \end{enumerate}
\end{proposition}
更一般地，不必假定基域是复数域，
只要线性变换$\sA$或矩阵$A$的特征多项式$p(\lambda)$能在基域中分解为线性因子的乘积：
$p(\lambda)=\prod_{i=1}^n(\lambda-\lambda_i)$，上述结论和下面的证明依然成立。
\end{frame}


\begin{frame}
  \begin{example}
    若$A\in \bC^{n\times n}$的$n$个特征值$\lambda_1,\cdots, \lambda_n$, 
    那么
    \begin{enumerate}
      \item  $A^k$（其中$k$为正整数）的$n$个特征值$\lambda_1^k,\cdots,\lambda_n^k$.
更一般地，对$f(\lambda)\in \bC[\lambda]$, $f(A)$的$n$个特征值
        $f(\lambda_1), \cdots, f(\lambda_n)$.
      \item 若$A$可逆，则$A^{-1}$有$n$个特征值$\lambda_1^{-1}, \cdots, \lambda_n^{-1}$.
    \end{enumerate}
    诚然，设$X\in \GL_n(\bC)$使得
    \[
      X^{-1}AX=\begin{pmatrix}
          \lambda_1 &  \cdots & * \\
          & \ddots & \vdots \\
          & & \lambda_n
        \end{pmatrix},
      \]
    那么由上三角阵的运算规律知
    \[
      \begin{aligned}
        X^{-1}f(A)X&=  f(X^{-1}AX) 
        =  \begin{pmatrix}
        f(\lambda_1) &  \cdots & * \\
          & \ddots & \vdots \\
          & & f(\lambda_n)
        \end{pmatrix};\\
        X^{-1}A^{-1}X&=(X^{-1}AX)^{-1}= \begin{pmatrix}
        \lambda_1^{-1} &  \cdots & * \\
          & \ddots & \vdots \\
          & & \lambda_n^{-1}
        \end{pmatrix} \quad(\text{若$A$可逆}),
      \end{aligned}
    \]
  由此结论显然。
\end{example}
\end{frame}


%\begin{frame}
%  为了证明上面的命题，我们先来证明 (1) 中 $r=1$的情形作为引理。
%
%  \begin{lemma}
%    若$A\in P^{n\times n}$有特征值$\lambda_1$, 则$A$相似于一个形如
%      $\begin{pmatrix}
%          \lambda_1 & S \\
%        0 & A_1
%      \end{pmatrix}$的矩阵。
%  \end{lemma}
%
%  \pause
%  \begin{proof}[引理的证明]
%    考虑线性变换
%    \[
%      \sA\colon P^{(n)}\rightarrow P^{(n)},\quad X\mapsto AX.
%    \]
%    $\sA$在自然基$\symbb{B}$下的矩阵为$A$. 
%    设$\xi$是属于$\lambda_1$的一个特征向量，特别地，$\xi\neq 0$.
%    将$\xi$扩充为$P^{(n)}$的基得$\symbb{B} X$, 显然$\sA$在此基下的矩阵$A'=X^{-1}AX$形如
%    \[
%     A'= \begin{pmatrix}
%          \lambda_1 & S \\
%        0 & A_1
%      \end{pmatrix}.
%\]
%  \end{proof}
%\pause
%\begin{remark*}
%  上面的证明中我们用了线性变换的观点。直接的矩阵运算也行。把$\xi$扩充为一个可逆矩阵$X=\begin{pmatrix}
%    \xi & \cdots
%  \end{pmatrix}$, 那么
%  \[
%    AX=X\begin{pmatrix}
%        \lambda_1 & S \\
%          & A_1
%        \end{pmatrix},
%      \]
%      对某个$S, A_1$. 因而$X^{-1}AX$具有想要的形状。
%\end{remark*}
%
%\end{frame}


\begin{frame}
%  \begin{proof}[命题的证明]
%    (2) 可由 (1) 立得。我们证明 (1). 我们对$n$归纳。
%    既然$\lambda_1$是$A$的特征值，由引理可知，存在$Q_0\in \GL_n(P)$使得
%    $Q_0^{-1} A Q_0=\begin{pmatrix}
%      \lambda_1 & S \\ 0 & B
%    \end{pmatrix}$.
%    既然$A$的特征多项式$p(\lambda)$有根$\lambda_1,\cdots,\lambda_r$,
%    $B$的特征多项式$p(\lambda)/(\lambda-\lambda_1)$有根
%    $\lambda_2,\cdots,\lambda_r$. 由归纳假设知存在$Q_1\in \GL_{n-1}(P)$使得
%    \[
%      Q_1^{-1} B  Q_1 = \begin{pmatrix}
%        T_1 & S_1 \\ & B_1
%      \end{pmatrix},
%    \]
%    其中$T_1$是对角线上依次为$\lambda_2,\cdots,\lambda_r$的上三角阵。
%    令$Q_2=\begin{pmatrix}
%      1 \\ & Q_1
%    \end{pmatrix}$. 那么
%    \[
%      \begin{aligned}
%        Q_2^{-1}\left( Q_0^{-1} A Q_0 \right) Q_2 &=  
%      \begin{pmatrix}
%        1 \\ & Q_1^{-1} 
%      \end{pmatrix} 
%      \begin{pmatrix}
%      \lambda_1 & *\\ 0 & B
%    \end{pmatrix}
%\begin{pmatrix}
%      1 \\ & Q_1
%    \end{pmatrix} = \begin{pmatrix}
%      \lambda_1 & * \\
%      & Q_1^{-1}BQ_1
%    \end{pmatrix} \\
%    &=  \begin{pmatrix}
%      \lambda_1 & * & *\\
%      & T_1 & * \\
%      & & B_1
%    \end{pmatrix}.
%    \end{aligned}
%  \]
%  因此，若令$Q=Q_0Q_2$, 则$Q^{-1}AQ$具有命题中断言的形式。
%  \end{proof}
  \begin{proof*}[命题~\ref{114}~的证明]
    命题中断言 (1) 和 (2) 是等价的，我们只证明矩阵形式的断言 (2)。
    我们对$n$归纳。$n=1$的情形显然。考虑$n>1$.
    考虑线性变换
    \[
      \sA\colon \bC^{(n)}\rightarrow \bC^{(n)}, X\mapsto AX.
    \]
    $\sA$在自然基$\symbb{B}$下的矩阵为$A$.
    取$\lambda_1$的一个特征向量$\xi$, 并将其扩充为$\bC^{(n)}$的一组基得$\symbb{B} X$.
    $\sA$在新基$\symbb{B} X$下的矩阵$A'=X^{-1}AX$形如
    \[
      A'=\begin{pmatrix}
        \lambda_1 & * \\
        0 & D
      \end{pmatrix},
    \]
    其中$D$是$n-1$阶方阵。既然$A$的特征多项式为$p(\lambda)=\prod_{i=1}^n(\lambda-\lambda_i)$,
    $D$的特征多项式为$p(\lambda)/(\lambda-\lambda_1)=\prod_{i=2}^n (\lambda-\lambda_i)$.
    由归纳假设，存在$Q\in \GL_{n-1}(\bC)$使得$Q^{-1}DQ$为上三角矩阵，对角线上依次为$\lambda_2,\cdots,\lambda_n$.
    令$Q_1=\begin{pmatrix}
      1 \\ & Q
    \end{pmatrix}$, 则
    \[
      A''=Q_1^{-1}A'Q_1=\begin{pmatrix}
        \lambda_1 & * \\
        0 & Q^{-1}DQ
      \end{pmatrix}
    \]
    为上三角阵，其对角线上依次为$\lambda_1,\cdots,\lambda_n$, 且$A''=(PQ_1)^{-1}A(PQ_1)$.
  \end{proof*}


\end{frame}

\begin{frame}
  \begin{remark*}
    \begin{enumerate}
      \item 上面我们一开始证明了：若$A$有特征值$\lambda_1$, $A$能相似于形如$\begin{pmatrix}
        \lambda_1 & * \\
        0 & D
      \end{pmatrix}$的矩阵。这里我们用了线性变换的观点。直接的矩阵运算也行。
      把$\xi$扩充为一个可逆矩阵$X=\begin{pmatrix}
      \xi & \cdots
    \end{pmatrix}$, 那么
    \[
      AX=X\begin{pmatrix}
          \lambda_1 & * \\
          & D
        \end{pmatrix}.
      \]
      因而$X^{-1}AX$具有想要的形状。
    \item 与上述命题的证明类似地，我们可以证明：
      若$A\in P^{n\times n}$的特征多项式$p(\lambda)$在$P$中有根$\lambda_1, \cdots, \lambda_r$ (这些$\lambda_i$可重复），
        即$\prod_{i=1}^r(\lambda-\lambda_i) \mid p(\lambda)$,
        则存在$Q\in \GL_n(P)$使得
    \[
      Q^{-1} A Q =\begin{pmatrix}
        T & S\\ 0& A_1
      \end{pmatrix}, 
    \]
    其中$T$是对角线上依次为$\lambda_1, \cdots, \lambda_r$的上三角方阵。
    \end{enumerate}
  \end{remark*}

  下面我们接着讨论可对角化的条件。
  \begin{theorem}\label{13B}
    令$A\in \bC^{n\times n}$. $A$可对角化当且仅当$A$的任一特征值的代数重数等于其几何重数。
  \end{theorem}
\end{frame}


\begin{frame}
  证明该结论所需的一个关键事实是一个特征值的几何重数和代数重数之间的数量关系。
  \begin{lemma}\label{12A}
    若$\lambda_0$为$A\in \bC^{n\times n}$的特征值，那么$\lambda_0$的几何重数不超过$\lambda_0$的代数重数。
  \end{lemma}
  \begin{proof}
    设$\lambda_0$为$A$的$m$-重特征值，
    $A$的$n$个特征值为$\lambda_0, \cdots, \lambda_0, \lambda_{m+1},\cdots,\lambda_n$, 其中$\lambda_i\neq \lambda_0$ ($i=m+1,\cdots,n$). 
    这样$A$相似于一个上三角阵
    $
      B=\begin{pmatrix}
        B_1 & B_3 \\
        & B_2
      \end{pmatrix},$
    其中$B_1$是对角线上都是$\lambda_0$的$m$阶上三角矩阵，
    $B_2$是对角线上依次为$\lambda_{m+1},\cdots,\lambda_n$的$n-m$阶上三角矩阵。
    由于一个特征值的几何重数和代数重数都是相似不变量，我们只用比较$\lambda_0$作为$B$的特征值的这两个重数。
    注意到$\lambda_0 E -B$有个$n-m$阶非零子式$\det (\lambda_0 E-B_2)$, 故$\rank(\lambda_0 E-B)\geqslant n-m$. 
      而$\lambda_0$的几何重数等于线性方程组$(\lambda_0 E -B)X=0$ 的解空间的维数
      ，因此$\lambda_0$的几何重数不超过$n-(n-m)=m$.
  \end{proof}
%  \begin{proof}
%    设$\lambda_0$为$A$的$m$-重特征值。
%    那么$A$相似于$B=\begin{pmatrix}
%      T & S \\ 0 & A_1
%    \end{pmatrix}$, 其中$T$是对角线上都是$\lambda_0$的$m$阶上三角阵。
%    这样$\lambda_0$不是$A_1$的特征值，$\lambda_0 E-A_1$可逆。
%    进而
%    \[
%      \lambda_0 E-B=\begin{pmatrix}
%        \lambda_0 E - T & -S \\ & \lambda_0 E-A_1
%      \end{pmatrix}
%    \]
%    有个$n-m$阶非零子式，故而其秩不小于$n-m$. 
%    我们知道$\lambda_0$的几何重数等于$(\lambda_0 E-B)X=0$的解空间的维数，
%    因此$\lambda_0$的几何重数不超过$n-(n-m)=m$.
%  \end{proof}
  \begin{proof*}[定理~\ref{13B}~的证明]
    设$\lambda_1, \cdots, \lambda_r$是$A$的全部不同的特征值。
    设$\lambda_i$的代数重数和几何重数分别为$n_i, m_i$.
    那么$\sum_{i=1}^r n_i=n$, $n_i\geqslant m_i$. 
    由定理~\ref{13C}~知 $A$可对角化当且仅当$P^{(n)}=\oplus_{i=1}^r V_{\lambda_i}$当且仅当$n=\sum_{i=1}^r m_i$,
    这样易知$A$可对角化当且仅当对任意的$i$有$n_i=m_i$.
  \end{proof*}
\end{frame}

\begin{frame}
  上述引理换个说法就是：属于$m$-重特征值$\lambda_0$的线性无关的一组特征向量中至多有$m$个向量。
  关于上述定理，我们补充两个概念：若一个特征值的代数重数等于其几何重数，该特征值称为\emph{半单} (semisimple) 的；
  若一个特征值的代数重数为$1$,  该特征值称为\emph{单} (simple) 的（显然单特征值是半单的）。
  这样上述定理相当于说在复数域上可对角化当且仅当所有复特征值都是半单的。
  下面是一个不能对角化的矩阵的例子。不能相似对角化的矩阵也称为\emph{缺陷矩阵} (defective matrix, deficient matrix)。

  \begin{nonexample}
    考虑矩阵
    \[
      A=\begin{pmatrix}
      2 & 0 & 2 & 3 \\
      1 & 2 & 1 & 2 \\
      0 &  0 & 1 &  1\\
     0&  0 & 0 & 1
   \end{pmatrix}.
 \]
 $A$
    的特征多项式为
    \[
      \det (\lambda E-A)=(\lambda-2)^2(\lambda-1)^2.
    \]
    这样$A$的全部特征值为$2,2,1,1$.
    易知矩阵$2E-A$的秩为$3$, 故特征值$2$的几何重数为$1$. 
    这样由上述定理知$A$是个缺陷矩阵。
  \end{nonexample}

如果基域是某个数域$P$, 且我们期望方阵$A$可对角化，我们自然地要假定$A$的特征多项式在$P$上能分解为线性因子的乘积（或者说，$A$的所有复特征值都落在$P$中）。在此假定下，$A$可对角化当且仅当$A$的所有特征值都半单。
\end{frame}

\begin{frame}{小结}
  \begin{enumerate}
    \item 何谓可对角化问题？我们讲了可对角化的哪些等价条件？充分条件？
  \end{enumerate}
\end{frame}
